最近,与“预训练,及时和预测”的新范式相比,与“预训练,微调”范式相比,新的范式“预训练,及时和预测”取得了显着的成就。在基于及时的GPT-3成功之后,一系列基于蒙版的语言模型(MLM)(例如Bert,Roberta)及时学习方法变得流行并广泛使用。但是,另一个有效的预训练的判别模型Electra可能被忽略了。在本文中,我们尝试使用拟议的替换代替令牌检测(RTD)基于基于的及时学习方法来完成零摄像的几个NLP任务。实验结果表明,基于RTD-Prompt学习的Electra模型可达到令人惊讶的最先进的零拍性能。在数字上,与MLM-Roberta-Large和MLM-Bert-Large相比,我们的RTD-Electra-Large在所有15个任务上平均提高了约8.4%和13.7%。特别是在SST-2任务上,我们的RTD-Electra-Large在没有任何培训数据的情况下达到了令人惊讶的90.1%精度。总体而言,与预先训练的蒙版语言模型相比,预先训练的代替令牌检测模型在零拍学习中的性能更好。因此,Electra是一位出色的零球学习者。源代码可在以下网址获得:https://github.com/nishiwen1214/rtd-electra。
translated by 谷歌翻译
人类难以区分谣言的真假,但目前的深度学习模型可以超越人类,并在许多谣言数据集中实现优异的准确性。在本文中,我们调查了似乎表现得很好的深度学习模型是否实际上学会检测谣言。我们通过在五个现实世界数据集中的微调BERT的模型和评估所有测试集中评估基于BERT的模型来评估其泛化能力的概念性示例。实验结果表明,其他看不见的数据集上模型的泛化能力是不令人满意的,甚至无法检测到甚至常见意义谣言。此外,我们通过实验发现,当谣言数据集具有严重数据陷阱时,模型采取快捷方式并学习荒谬的知识。这意味着基于特定规则对谣言文本的简单修改将导致模型预测不一致。为了更现实地评估谣言检测模型,我们提出了一种称为配对测试(BAIRT)的新评估方法,这需要模型同时正确地预测一对测试样本。此外,我们提出了关于如何更好地创建谣言数据集并在本文末尾进行谣言检测模型的建议。
translated by 谷歌翻译
随着社交媒体的发展,社交沟通已经改变。尽管这有助于人们的沟通和信息访问,但它也提供了传播谣言的理想平台。在正常或关键的情况下,谣言会影响人们的判断力,甚至危害社会保障。但是,自然语言是高维且稀疏的,并且在社交媒体上可以以数百种方式表达同样的谣言。因此,质疑当前谣言检测模型的鲁棒性和概括。我们提出了一个小说\ textbf {h} ierarchical \ textbf {a} dversarial \ textbf {t}降雨法,用于\ textbf {r} umor \ textbf {d} etection(hat eTection(hat4rd)在社交媒体上。具体而言,HAT4RD基于梯度上升,通过将对抗性扰动添加到后级别和事件级别模块的嵌入层以欺骗检测器。同时,检测器使用随机梯度下降来最大程度地减少对抗性风险,以学习更健壮的模型。通过这种方式,增强了后级和事件级的样本空间,我们已经在各种对抗性攻击下验证了模型的鲁棒性。此外,视觉实验表明,所提出的模型会漂移到具有扁平损失景观的区域,从而更好地概括。我们对来自两个常用的社交平台(Twitter和Weibo)的三个公共谣言数据集评估了我们的方法。实验结果表明,我们的模型比最先进的方法获得了更好的结果。
translated by 谷歌翻译
End-to-End speech-to-speech translation (S2ST) is generally evaluated with text-based metrics. This means that generated speech has to be automatically transcribed, making the evaluation dependent on the availability and quality of automatic speech recognition (ASR) systems. In this paper, we propose a text-free evaluation metric for end-to-end S2ST, named BLASER, to avoid the dependency on ASR systems. BLASER leverages a multilingual multimodal encoder to directly encode the speech segments for source input, translation output and reference into a shared embedding space and computes a score of the translation quality that can be used as a proxy to human evaluation. To evaluate our approach, we construct training and evaluation sets from more than 40k human annotations covering seven language directions. The best results of BLASER are achieved by training with supervision from human rating scores. We show that when evaluated at the sentence level, BLASER correlates significantly better with human judgment compared to ASR-dependent metrics including ASR-SENTBLEU in all translation directions and ASR-COMET in five of them. Our analysis shows combining speech and text as inputs to BLASER does not increase the correlation with human scores, but best correlations are achieved when using speech, which motivates the goal of our research. Moreover, we show that using ASR for references is detrimental for text-based metrics.
translated by 谷歌翻译
We present a noisy channel generative model of two sequences, for example text and speech, which enables uncovering the association between the two modalities when limited paired data is available. To address the intractability of the exact model under a realistic data setup, we propose a variational inference approximation. To train this variational model with categorical data, we propose a KL encoder loss approach which has connections to the wake-sleep algorithm. Identifying the joint or conditional distributions by only observing unpaired samples from the marginals is only possible under certain conditions in the data distribution and we discuss under what type of conditional independence assumptions that might be achieved, which guides the architecture designs. Experimental results show that even tiny amount of paired data (5 minutes) is sufficient to learn to relate the two modalities (graphemes and phonemes here) when a massive amount of unpaired data is available, paving the path to adopting this principled approach for all seq2seq models in low data resource regimes.
translated by 谷歌翻译
本文提出了一种增强学习(RL)框架,该框架利用Frank-Wolfe策略优化来解决利益区域(ROI)内部框架内编码的编码-Tree-Unit(CTU)位分配。大多数以前的基于RL的方法采用了单批评家设计,其中失真最小化和速率正则化的奖励是通过经验选择的超参数加权的。最近,提出了双批评设计,以通过交替的速度和失真批评者来更新演员。但是,它的收敛不能保证。为了解决这些问题,我们介绍了神经弗兰克 - 沃尔夫政策优化(NFWPO),以将CTU级分配作为动作约束的RL问题进行制定。在这个新框架中,我们利用费率评论家来预测一套可行的行动。借助这套可行的集合,援引失真的评论家来更新演员,以最大程度地提高ROI加权图像质量受速率约束。用X265产生的实验结果证实了所提出的方法比其他基线的优越性。
translated by 谷歌翻译
稀疏性已成为压缩和加速深度神经网络(DNN)的有前途方法之一。在不同类别的稀疏性中,由于其对现代加速器的有效执行,结构化的稀疏性引起了人们的关注。特别是,n:m稀疏性很有吸引力,因为已经有一些硬件加速器架构可以利用某些形式的n:m结构化稀疏性来产生更高的计算效率。在这项工作中,我们专注于N:M的稀疏性,并广泛研究和评估N:M稀疏性的各种培训食谱,以模型准确性和计算成本(FLOPS)之间的权衡(FLOPS)。在这项研究的基础上,我们提出了两种新的基于衰减的修剪方法,即“修剪面膜衰减”和“稀疏结构衰减”。我们的评估表明,这些提出的方法始终提供最新的(SOTA)模型精度,可与非结构化的稀疏性相当,在基于变压器的模型上用于翻译任务。使用新培训配方的稀疏模型准确性的提高是以总训练计算(FLOP)边际增加的成本。
translated by 谷歌翻译
从手绘中生成图像是内容创建的至关重要和基本任务。翻译很困难,因为存在无限的可能性,并且不同的用户通常会期望不同的结果。因此,我们提出了一个统一的框架,该框架支持基于扩散模型的草图和笔触对图像合成的三维控制。用户不仅可以确定输入笔画和草图的忠诚程度,而且还可以确定现实程度,因为用户输入通常与真实图像不一致。定性和定量实验表明,我们的框架实现了最新的性能,同时提供了具有控制形状,颜色和现实主义的自定义图像的灵活性。此外,我们的方法释放了应用程序,例如在真实图像上编辑,部分草图和笔触的生成以及多域多模式合成。
translated by 谷歌翻译
当前的图像到图像翻译方法通过条件生成模型来制定任务,从而仅学习重塑或区域变化,因为条件上下文提供的丰富结构信息受到了约束。在这项工作中,我们建议将矢量量化技术引入图像到图像翻译框架。矢量量化的内容表示不仅可以促进翻译,还可以促进不同域之间共享的无条件分布。同时,加上散布的样式表示,提出的方法进一步使图像扩展能力具有灵活性,并在内域内和域间具有灵活性。定性和定量实验表明,我们的框架与最先进的图像到图像到图像翻译和图像扩展方法的性能可比。与单个任务的方法相比,所提出的方法是统一的框架,释放了组合图像到图像翻译,无条件生成和图像扩展的应用程序。例如,它为图像生成和扩展提供了样式的可变性,并为图像到图像翻译提供了进一步的扩展功能。
translated by 谷歌翻译
如今,分布式文件系统已被广泛使用,但是使用其默认配置通常不是最佳的。同时,调整配置参数通常具有挑战性且耗时。它需要专业知识和调整操作也可能很昂贵。静态参数尤其是这种情况,仅在重新启动系统或工作负载后,更改才会生效。我们提出了一种新颖的方法,即Magpie,该方法利用深厚的加固学习来通过策略性探索和利用配置参数空间来调整静态参数。为了增强静态参数的调整,我们的方法使用分布式文件系统的服务器和客户端指标来了解静态参数与性能之间的关系。我们的经验评估结果表明,喜p可以明显改善分布式文件系统光泽的性能,在此过程中,我们的方法平均在朝着单个性能指标优化后,在默认配置方面取得了91.8%的吞吐量增益,而它达到39.7%的吞吐量增加了39.7%基线。
translated by 谷歌翻译